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一 种 用 于 Android 应 用 的 反 控 制 混 淆 系统 


ERR, E E, PEE 


(北京 信息 科技 大 学 计算 机 学 院 , 北京 100101) 


摘 Æ: Android 恶意 软件 中 的 控制 混 消 技 术 ， 可 以 增加 传统 Android 应 用 软件 执行 路 径 检 测 的 难度 ， 是 目前 代码 静态 
分 析 的 主要 困难 之 一 。 针 对 该 问题 进行 了 研究 ， 并 设计 系统 DOCFDroid 用 于 解决 此 问题 。 该 系统 在 预 处 理 阶段 获取 
CFG 关系 和 矩阵， 使 用 深度 优先 查找 待 分 析 路 径 集 合 ; 依据 用 户 给 定 的 源 点 集合 和 终 节 点 集合 ， 得 到 粗糙 路 径 ; 然后 采 
用 权重 筛选 的 算法 ， 可 以 有 效 的 获取 目标 路 径 集 合 。 在 实验 阶段 以 DroidBench 1.2 为 基础 构建 测试 样本 集 ， 验 证 该 方 
法 的 有 效 性 。 实 验 结果 表明 ， 该 方法 能 有 效 抵抗 控制 流 混 清 带 来 的 干扰 ， 目 标 路 径 识 别 率 可 达 95.31%。 
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Deobfuscation system for Android applications 


Cao Hongsheng, Jiao Jian, Li Denghui 
(Computer School of Beijing Information Science & Technology University, Beijing 100101, China) 


Abstract: Control obfuscation can greatly increase the difficulty on detecting implementation path of Android application, and 
also is the one of the main difficulties on current code static analysis. This article had carried on the research to this question 
and designed a system DOCF Droid used to solve this problem. The system obtained the CFG relation matrix in the pretreatment 
stage, and used the depth-first algorithm to find the set ofthe path. According to the set of source points and the set of end points, 
the coarse path was obtained. The algorithm of weight screening could effectively obtain the target path set. Based on the sample 
set DroidBenchl1.2, the test sample set was further constructed to verify the validity of this method. The experimental results 
show that the system can effectively resist the interference caused by control obfuscation, and the recognition rate of target path 


can reach 95.3196. 
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0 引言 
表 1 控制 混淆 分 类 

混淆 技术 的 出 现 可 以 帮助 隐藏 代码 内 部 的 真实 信息 ， 最 早 "— 
应 用 于 软件 反 分 析 和 防盗 版 领域 ， 但 随 着 近年 来 恶意 代码 的 泛 m 
滥 ， 越 来 越 多 的 黑客 都 会 采用 代码 混淆 技术 来 “躲避 ”检测 工 cud S 
具 。 由 于 目前 针对 恶意 代码 的 检测 方法 主要 基于 特征 码 的 方式 ， 循环 展开 
混淆 技术 的 大 量 使 用 可 以 有 效 隐 藏 自 身 的 特征 ， 躲 避 防 病毒 工 — 
具 的 查 杀 ， 加 剧 了 分 析 过 程 的 时 空 复杂 性 ， 造 成 特征 码 的 数量 — "— 
日 益 庞大 ， 使 代码 检测 的 时 效 性 和 准确 都 受到 了 严重 的 影响 。 P 

在 通用 的 混淆 技术 中 ， 目 前 比较 常用 且 难以 防范 的 是 控制 — 
流 混淆 ， 其 目的 [是 改变 或 复杂 化 程序 的 控制 流 ， 使 程序 更 难 uu MP 
以 破译 。 控 制 混淆 通过 改变 控制 流 图 (CCFG) 的 结构 , 达到 混淆 
的 。 按 照 其 实 方式 控制 混淆 又 可 分 为 重 打包 、 字 节 码 控制 和 搬 由 于 控制 混淆 的 多 样 性 和 易于 实现 的 特点 。 越 来 越 多 的 恶 
入 元 余 分 支 等 多 种 实现 技术 。 文 献 [2.3] 将 控制 混 活 方法 分 为 三 ” 意 代码 普遍 采用 控制 混淆 技术 逃避 安全 分 析 和 检测 ， 针 对 恶意 


类 ， 分 别 是 : 计算 混淆 、 排 序 混淆 和 聚合 混淆 ， 如 表 1 所 示 。 代码 的 反 混淆 技术 已 经 成 为 代码 安全 的 关注 热点 。 
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录用 稿 


Baumann 等 人 外 提 设 计 了 一 个 Anti-ProGuard 的 一 个 原型 


实现 ,使 


软件 相似 度 算法 检测 混淆 之 后 的 恶意 软件 。 


提出 了 一 套 抗 混淆 的 恶意 应 | 


变种 识别 系统 ， 包 括 行为 分 析 、 


文献 [5] 


特征 提取 和 恶意 应 


用 识别 三 个 主要 部 分 。 其 方法 


现 对 恶意 应 ) 


度 监控 ， 分 析 代码 行为 ， 提 取 关 键 行为 逻辑 和 抗 
j 变 种 的 识别 ， 但 该 文采 | 


通过 实现 高 透 
扰 处 理 ， 
的 动态 污点 分 析 ， 对 


资源 和 时 间 要 求 较 大 , 文献 [6] 提 出 了 检测 系统 DroidChameleon, 


资 
它 能 够 对 检测 出 重 


打包 、 字 节 码 控制 混淆 技术 的 应 用 。 文 献 [7] 
提出 的 检测 工具 ViewDroid 同样 也 是 针对 Android 平台 重 打包 
后 的 应 用 进行 检测 。 文 献 [8] 提 出 了 一 种 抗 混淆 的 Android 应 用 
相似 性 检测 方法 。 其 思路 是 提取 Android 应 用 内 特定 文件 的 内 
容 特 征 计算 应 用 相似 性 。 文献 [9] 目 的 是 检测 恶意 软件 是 否 属于 
同一 家 族 ， 使 用 API 调用 及 数据 依赖 关系 描述 特征 ， 结 合 语义 


和 统计 学 习 进 行 检测 ， 降 
XC BA [10] Je H 


复杂 度 较 高 。 


MockDroid #1 TISSA, X 


析 方 法 ， 能 够 检测 


经 过 混淆 、 加 密 的 信息 


了 与 


氏 了 部 分 代码 混淆 技术 干扰 ， 但 分 析 
的 检测 工具 AppFence 


EA 


H A 


TaintDroid 类 似 的 针对 污点 分 


泄露 。 这 些 文献 对 恶 


意 应 用 的 识别 方 
清 前 后 的 功能 实 


B ge HUE OI ZETA, 
岗 路 径 ， 分 析 人 员 无 法 
行为 和 运行 过 程 。 文 献 [11] 使 / 


不 能 给 出 恶意 软件 混 
分 析 应 用 在 混淆 前 后 的 


但 


CFG (Control Flow Graph: 控 制 


DAS 

引用 

的 功能 实现 路 径 。 
从 目前 的 研究 


) 表示 行为 特征 ， 通 过 分 析 同 构 CFG 对 抗 部 分 混淆 ， 该 文 
CFG 来 解决 混淆 问题 , 但 还 是 没有 给 出 恶意 应 用 混淆 前 后 


d: 
结果 


可 知 ， 基 于 特征 识别 的 传统 方法 


法 满足 现 有 反 混 消 


需求 ， 需 要 以 行为 特征 为 主要 


通过 识别 恶意 应 | 
文献 [2] 给 出 混淆 


的 实 


际 行为 ,达到 抵抗 混淆 技术 干扰 
的 定义 特别 指出 代码 混淆 不 改变 原 程 序 的 功 
因此 混淆 前 后 总 能 有 一 条 实现 程 


为 基础 开展 相应 的 
目标 路 径 《〈 实 现 原 


位 source 和 Si 


1 ”问题 分 析 
控制 流 图 由 者 


的 


研究 ， 


引用 了 


已 经 无 
的 分 析 方 法 ， 
的 目的 。 


序 功 能 的 路 径 。 
source-sink 机 制 ， 利 


本 文 以 此 
用 敏感 函 


nk, 


功能 Li 


本 块 和 


因此 ， 对 混淆 之 后 


理 前 后 的 示例 ， 


a 


的 应 | 


行 的 。 为 了 便于 说 明 ， 构 建 了 如 
图 中 的 


HETE 


的 CFG， 最 后 检测 出 


应 用 


[rund 


SX, 
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控制 ; 


i 统 


产生 了 不 可 达 路 径 path4-(S,1,6,7) ~ path5={S,1,2,7} 、 
path6-(S,1,2,7,8) 和 path7-(S,1,2,8,9) ， 
path8—(S,1,2,8,3,E!, path2 变 为 path9={S,1,4,2,8,3,E}， 最 终 的 
路 径 集 合 为 paths'={ path3, path4, path5, path6, path7, path8, 
path9} 。 不 可 达 路 径 集合 pathisvaia7 (path4, path5, path6, path7} 给 


逆向 分 析 工 作 制 造 障碍 。 


S 


normal 


而 pathi 4b 为 


S 

Y 

6. —— 1 
4 

Y 

TO mn 


3 NES C 


图 1 


zr ffi 


控制 流 


obfuscate 


个 


其 中 paths 和 paths' 是 同 
paths' 是 根据 混淆 后 代码 
sink 机 制 ， 其 


应 用 对 应 的 


包含 源 点 ， 


fr Source，nz 表 示 该 基本 块 
合 Sink, W 


构 成 的 集合 ( 记 作 Pathsouce sink ) o 


pathsd 根据 函数 分 为 两 类 


另外 一 类 是 ns 和 ma 分 别 在 不 同 函 数 中 ， 


Di: 


: 一 类 ns 和 ng 在 同一 个 函数 中 ; 


个 不 
的 CFG 求 得 的 路 径 集合 。 
中 ns 表示 该 基本 块 
包含 终 节点 ， 下 标 d 属于 终 节点 集 
比 ， 反 混淆 的 本 质问 题 是 如 何 从 paths' 中 尽 可 能 地 
还 原 出 paths。 即 表示 从 代码 中 找到 从 ns 到 na 


同 的 路 径 集 合 ， 
TR 
bs s 属于 源 点 集 


{i source- 


的 可 达 路 径 pathsd 


体 可 以 分 为 两 种 情 


a) ns 和 na 中 的 变量 ， 在 本 函数 的 其 他 


其 本 块 中 也 有 操作 


有 向 边 两 类 元 素 组 成 。 对 于 程序 原 有 
某 些 特定 功能 ， 总 存在 能 从 起 始 节点 到 达 终 止 节点 的 路 径 。 
]， 查 找 实现 原 有 功能 的 执行 路 径 是 可 


图 1 所 示 的 CFG 控制 混淆 处 


圆 形 表示 CFG rp di 
控制 流 ， 其 中 标志 为 S 的 基本 块 为 起 始 基 本 块 ; 标志 为 B 的 基 
本 块 为 终结 基本 块 。 


本 块 ， 有 向 边 表示 


Z| 1 的 normal 所 示 ， 可 达 路 径 有 pathl-(S,1,2,3,E] , 


path2-(S,1,4,2,3,E] , path3={S,1,4,5,E} 和 path3={S,1,4,5,E}， 则 


对 应 


作 


€ 


Ján A 284] 
F paths 的 可 达 路 径 必 能 够 得 到 执行 结果 out. 


的 路 径 集 合 为 paths={path1, path2, path3}， 可 知 paths rp Er 
为 可 达 路 径 。 假设 该 应 | 


EAN in, 执行 结果 为 out， 数 据 


如 图 1 的 obfuscate 所 示 为 经 过 控制 混淆 后 所 得 的 CFG, 


处 理 ， 通 过 ns 和 na 中 的 变量 


， 分 别 查找 ns 


和 na 所 在 函数 中 关 


其 他 


其 本 块 中 没有 操作 


于 其 变量 的 路 径 ; 
b) ns 或 ww 中 的 变量 ， 在 本 函数 的 
处 理 ， 输出 ns 和 na 所 在 
2 系统 设计 
2.4 ” 预 处 理 阶段 


=} 


的 函数 名 以 及 基本 块 请 


基于 CFG 的 Android 应 


所 示 ， 在 系统 地 第 一 阶段 主要 完成 数 提 


统 将 指定 的 安装 文件 ， 
mainfirst.xml XF, JİN] 
Assignment: 静 态 单 赋值 ) 文 伯 


通过 反 编 译 抽 
这 些 文件 ， 生 成 


7o 


上 反 控 制 混淆 方法 的 系统 (如 图 2 
预 处 理 ， 在 1.1 中 ， 系 
取出 


中 class.des 和 


SSA (Static Single- 


O AA 


的 需求 ， 生 成 相应 的 CFG。 


Fo 1.2 阶段 使 


1SSA, 并 根据 用 户 
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chinaXiv 


录用 稿 


E, 


rate CFG 2.1 find Sensitive Basic Block 2.2 find Coarse Path 2.3 find Target Path 


Phase I :Pretreatment Phase II :Find Path 


图 2 


系统 结构 图 


CFG 可 以 将 其 表示 成 矩阵 形 的 形式 , 称 为 CFRM (Control 
Flow Relation Matrix: 控制 流 关 系 和 矩阵 )， 二 者 形式 定义 如 下 : 

CFG =(E,N)， 其 中 为 有 向 边 集合 ，N={M，V, t) 793 
块 (图 中 的 节点 ) 集合 ,其 中 M 为 方法 /函数 集合 ，V 为 变量 集 
合 ，t 为 分 支 数 ， 其 中 co. 

CFRM =(R,N)，N 是 CFG 中 基本 块 集合 ; 一 个 二 维 钻 
阵 ， 即 从 NxN 到 {1，0} 的 映射 ， 称 为 N 上 的 二 元 关系 ; 
V(n.n)eNxN o 
22 ”查找 路 径 阶段 
系统 的 第 二 阶段 主要 作用 是 根据 预 处 理 模块 得 到 的 CFG, 

符合 用 户 当下 需求 的 路 径 ( 功 能 路 径 )。 有 具体 分 为 三 个 部 


rut 


R 是 


仿 测 出 
分 : 
2.2.1 查找 敏感 基本 块 
敏感 基本 块 查找 功能 (如 图 2 的 2.1 所 示 )。 在 查找 敏感 基 
本 块 之 前 ， 先 在 预 处 理 得 到 的 CFG 的 基础 上 ， 生 成 CFRM。 
设计 算法 CONSTRAINT_VA4LUE。 该 算法 找 出 所 有 包含 源 
点 元 素 以 及 终 节 点 元 素 的 敏感 基本 块 集合 (起 始 基 本 块 集合 和 


终结 基本 块 集合 ), 并 取 两 者 中 的 元 素 个 数 大 的 值 作为 路 径 条 数 
约 AB 'constraint o 
算法 的 输入 分 别 是 : CFRM, SET; ne 以 及 SETa 


的 终点 元 素 集合 ， 两 者 都 为 一 些 特征 得 
本 块 ， 输 出 : 约束 值 reonswaini。 

以 下 是 该 算法 的 伪 代 码 ; 
CONSTRAINT VALUE(CFRM, SET., SETa) 


vint 
中 
zi 
bri 
m 
A 
是 
ER 
Bu 


1 s=0 

2 d=0 

3 N,-20 

4 N =Ø 

5foreachn € CFRM.N /遍历 CFG 中 的 基本 块 
6  foreachm € nM /遍历 基本 块 中 的 表达 式 


7 ifm € SETa /表达 式 含 有 终点 元 素 

8 N; =N; Dn 

9 s+=1 

10 else if m SET. /表达 式 含有 源 点 元 素 
12 N =N Un 

13 d+=1 

14 store Ns 

15 store Na 


16 return max(s, d) 


算法 通过 
的 终点 元 素 集合 ， 米 


遍历 CFRM, $R] 


本 块 用 于 在 后 面 


合作 期 十 


ChinaXive ERE 
等 : 一 种 用 于 Android E MAH 空 制 混 消 系统 


& SET; 源 点 元 素 集 合 以 及 SETa 
找到 的 敏感 基本 块 分 别 保存 ， 
造 路 径 查 找 中 定 


这 些 敏感 基 


位 source-sink， 通 过 定位 


source-sink, 


后 max(s, 4d) 函数 来 返回 约束 值 ， 


径 数 量 。 


2.2.2 查找 粗糙 路 径 
系统 的 2.2 阶段 主要 实现 查找 粗糙 路 径 。 以 
KP, EYED BUSES 


缩小 了 


四 查找 的 范围， 


益 于 提高 查找 的 效率 。 最 


EZ. 
n: 


于 限定 最 后 查找 到 的 目标 路 


D 


1 中 的 CFG 


paths'={ path3, path4, path5, path6, path7, path8, path9} 。 


根据 ns fU na 7638 4H 
进行 裁剪 ， 得 到 粗糙 路 径 集合 Pathcoarse; 记 作 : 
C Path', Vp, € Path 


coarse 一 


In eN on, ENa JSK, 


， 使 用 深 


度 优 先 算法 对 paths 集合 


coarse? 


算法 的 输入 是 : CFRM， 起 始 基 本 块 集合 M 以 及 终结 基本 


块 集合 Na 


; 输出 为 : Pathcoarse » 
算法 伪 代 码 如 下 : 


GENERATE COARSE PATH SET(CFRM, Ni, Ns) 


1 PATH, - 


2 Path, =Ø 


3foreachn € Na 


度 优先 查找 包含 终 


/使 用 深 


结 基本 块 的 路 径 


4 PATHmp= PATH U GENERATE_ DFS (CFRM. R, n) 


5foreachp € PATH 
/在 PATH dili. LARE A E8283 


6  foreachm € p 
7 ifm € Ns 
8 Path se = 


9 break 


10 return Pathcoarse 


通过 上 


CFRM.R 二 维 


矩阵 得 
Pathcoarse 是 整个 CFG 路 径 的 子 集 , 该 算法 进 


连通 


H| 


El. SRE EER 
以 图 1 中 的 CFG 为 例 ， 


lune P 


小 节 得 到 的 敏感 基本 块 ， 
source 和 sink 的 路 径 ,并存 到 Pathcoarseo 


基本 块 的 路 径 


使 用 深度 优先 算法 遍历 


标 路 径 。 


步 缩 减 了 裁剪 范 


混淆 后 的 路 径 集合 : 


paths'={ path3, path4, path5, path6, path7, path8, path9} 。 


经 过 算法 处 到 


Pathcoarse 的 CFG， 如 图 3 所 示 。 


从 图 3 可 
时 包含 起 始 基 本 块 (S 


以 看 


粗糙 路 径 查 找 


， 将 这 些 无 关 基本 块 易 


起 本 块 ) 和 终结 


E paths' 路 径 集 合 的 CFG， 得 到 粗糙 路 径 旨 


Z^ 
r1 


pau 


， 包 含 基本 块 6、7、9 的 路 径 ， IR 


= 


表现 如 图 3 的 Pathcoarse 的 CFG 所 示 。 


2.2.3 查找 目标 路 径 
系统 2.3 阶段 主要 功能 ,通过 
计算 各 个 粗糙 路 径 的 权重 ， 


Pathcoarse 得 到 


标 路 径 Pathsowrce sink o 


通过 对 
除 ， 得 到 粗糙 路 径 集 合 ， 


本 块 (E 基本 块 )。 


算法 OPTIMIZE PATH SET70， 
然后 根据 权重 筛选 粗糙 路 径 
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paths" 


图 3 示例 混淆 路 径 集 合 paths HiX 


该 算法 主要 分 成 三 个 步骤 : 


a) 从 粗 燃 路 径 集 合 中 查找 出 每 条 路 径 的 起 始 基 本 块 以 及 终 


疆 H 


-zH Æ 


本 块 中 的 所 有 变量 ， 伪 代码 
FIND_RELATED_VAR(p)， 然 后 为 变量 赋予 权 值 1; 

b) 计 算 每 条 粗糙 路 径 p 的 每 一 个 提 
重 相 加 得 到 路 径 p 的 权重 ， 并 将 路 径 p 的 权重 添 力 
W H; 

o W 集合 中 的 元 素 按 照 从 大 到 小 排序 ， 
Fconstraint 选取 出 前 t 条 权 值 大 的 路 径 作为 目标 路 径 。 

根据 算法 2.1， 
块 集合 ) 
标 路 径 集合 Pathsowee sint。 如 图 4 
排序 之 后 , 再 结合 rconswwain=1， 优先 选择 第 一 条 权 生 
为 目标 路 径 ， 得 到 目标 路 径 集合 Pathsowce sinko 


S S 
Y Y 
1 1 
) 

Y Y 
2 2 
Y Y 
8 


Pathsouce sink 


Pathcoarse BT 


网 粗糙 路 径 集 合 


算法 的 输入 分 别 是 粗糙 路 径 集合 Patheoase; 
算法 的 输入 出 为 目标 路 径 Pathsource sinko 
代码 如 下 所 示 : 

OPTIMIZE PATH SET(Pathcoarse, Teonstraint) 


l'constraints 


Ns《〈 起 始 基本 块 集合 ) 和 Na (终结 基 
元 素 的 个 数 ， 得 到 的 约束 值 l'constraint 取 值 为 l, f 
所 示 ， 对 Pathcoarse MERIEN E 


LE 


基本 块 的 权重 ， 将 这 些 权 


1 到 权 值 集合 


按照 约束 值 


本 


LS 


SX, 


3foreachp € Patheoarse 

4 w,-20 

/获取 路 径 中 的 敏感 变量 集合 

5 v-FIND RELATED VAR(p) 


6  foreachn € p 


/敏感 变量 在 路 径 中 出 现 的 次 数 ， 计 算 路 径 权 值 


7 wt = Type (n)*IsVarExist (v, n) *w, 


8 W -W o(w,, p) 


/ 权 值 排序 
9 W =DESCEND SORT(W) 
/由 约束 值 获取 前 + 个 路 径 ， 作 为 目标 路 径 


„i< 一 Tconstraint } 


10 了 Pathsouree ， sink =Pathource ; sink U {pi | [Wps Pi »eW 


11 return Pathsource sink 


该 算法 从 表达 式 和 变量 这 两 个 层次 去 给 得 到 的 粗糙 路 径 进 


行 权 重 计算 和 优先 级 划分 。 通 过 敏感 变量 计算 路 径 权 寻 


ChinaXive (E: 
等 : 一 种 用 于 Android E ABA 空 制 混 消 


期 于 


E 


En 的 方式 ， 


这 一 思路 能 够 有 效 并 快速 地 划分 各 个 粗糙 路 径 的 优先 级 ， 从 而 
得 到 目标 路 径 。 


3 ”实验 验证 
为 验证 算法 在 检测 控 


制 混淆 后 的 Android 应 用 路 径 的 可 行 


性 与 有 效 性 ， 设 计 并 实现 了 系统 DOCFDroid， 开 


得 到 目 


m 


EE 大 的 路 径 作 


以 及 约束 值 
算 法 伪 


Eclipse4.5.2、JDK1.8、 基 础 框架 Soot. 
和 sink 所 采用 的 特征 集 来 源 于 文献 [12] 。 
3.1 DOCFDroid 功能 展示 
本 文 实验 采用 的 样本 集 为 : 
集 [13]: 在 DroidBench 1.2 数据 集 的 基础 上 , 使 
步 构建 的 样本 集 。 
] 共 包含 52 个 人 工 注 入 的 信息 泄露 漏洞 ， 包 括 数 


| ^m 


ART 
检测 系统 中 识 另 


基于 


I| source 


混淆 后 的 DroidBench 1.2 样本 
混淆 技术 进 
DroidBench 1.2 的 59 个 开源 的 Android 应 


日 与 列表 的 


FERE, ICC (Inter-component Communication: 


件 )、 代 码 混淆 、 反 射 以 及 隐 式 泄露 等 ,已 知 漏洞 所 分 


该 数据 集 已 成 为 Android 信息 泄露 检测 公认 数据 集 ， 


了 HH 
iur 
TL 


EE 
St 
pui 
iu 
TW 
[U 
Ri 
Q 


iur 


IL 
cr 
ga 
E 
EE 
[ 


步 使 


— 


Ar Yin 
o 


iu 


多 种 控制 混淆 方法 包括 
人 为 混淆 样本 集 代 码 。 样 本 集 
5、 图 6 和 图 7 所 万 


实验 方法 如 下 : 使 
E MALURILE, 
前 后 及 路 径 查 找 对 比如 图 

如 图 5 
中 泄漏 信息 的 函数 源码 生成 的 CFG, 
所 有 基本 块 及 其 代码 中 间 表 示 ; 图 右边 为 未 混淆 的 软 


A 
o 


进程 通信 组 


行 了 多 项 高 水 平 研究 。 本 文 在 DroidBench 1.2 数据 
混淆 技术 构建 本 实验 的 测试 样本 数据 


) 布 的 数量 


和 位 置 ,并 且 包 含 一 些 误 报 陷阱 ,用 于 评估 检测 系统 的 误 报 率 。 


[围绕 该 


， 循 环 条 件 扩 


CFG 混淆 


所 示 。 左 边 的 图 是 ! “PrivateDataLeakl.apk?” 
该 CFG 展示 了 该 


函数 的 
件 源 代码 ， 


可 以 看 到 代码 整体 是 一 个 让 语句 ， 并 且 让 语 句 中 只 
循环 语 名 分支 。 该 代码 主要 通过 获取 用 户 的 日 志 数 # 


个 for 


虽 和 手机 消 
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息 ， 并 把 这 些 数据 发 送 至 远程 服务 器 ， 达 到 


目标 信息 泄漏 的 


图 5 未 混淆 的 源 


未 混淆 的 源 代码 


代码 及 其 CFG 


图 6 混淆 后 的 源 代 码 及 其 CFG 


View) 


[m 


7 路 径 查 找 


本 文 插 入 了 一 个 元 余 的 sw 


原来 实现 功能 的 路 径 变 得 复杂 ， 如 椭圆 标志 
句 中 用 于 做 条 件 判定 的 函数 func OKAR 


如 图 6 所 示 。 图 右边 为 混淆 后 的 软件 源 


代码 ， 在 源 代码 ， 


itch 语 名 分支 和 证 语句 分 支 ， 使 函数 


部 分 所 示 。 两 个 语 


值 为 3， 因 此 程序 还 


是 执行 原来 的 代码 ， 函 数 功能 未 改变 。 但 是 ， 达 到 了 混淆 代码 
0 了 难度 。 系统 DOCFDroid 通过 检测 


的 目的 , 使 得 代码 分 析 增 力 


混淆 后 的 应 ) 


] ， 得 到 该 应 月 


昌 源 代码 的 CFG ( 


图 5 左边 ), 与 图 5 


u ChinaXiv 
dX, $: 一 种 用 于 Android 应 用 的 反 


比 对 ,可 以 看 到 图 中 多 出 一 些 分 支 , Ah E g 


系统 DOCFDroid 处 理 之 后 到 的 目 
基本 块 组 成 )， 一 样 能 够 实现 “PrivateDataLeakl.apk” 通 过 获取 


zi 


标志 部 分 所 示 。 
标 路 径 ( 图 7 椭圆 圈 出 的 


用 户 的 日 志 数 据 和 手机 消息 
达到 目标 信息 泄露 的 目的 。 


致 ， 但 是 这 些 基本 块 组 合 而 


, 


能 


不 与 原来 的 基本 块 数 


把 这 些 数据 发 送 至 远程 服务 器 ， 


经 反 控制 混淆 路 径 查找 之 后 ， 找 到 了 可 以 实现 函数 原本 3 
能 的 基本 块 。 这 些 基本 块 可 和 有 


地 


完全 一 


成 的 路 径 同 样 能 够 实现 函数 原本 的 


功能 。 如 图 中 椭圆 标志 部 分 所 示 ， 基 本 块 、@@ 对 应 未 混淆 源 
代码 的 for 循环 语 部 分 ， 基 本 块 @ 为 变量 “message” 的 赋值 ; 


基本 块 @ 对 应 代码 “Log.i("TEST", "sendSMS");”， 用 于 获取 日 


志 数 据 ， 基 本 块 @ 为 本 文 插入 的 switch 语句 ， 基 本 块 @ 对 应 未 


混淆 的 源 代码 “smsmanager.sendTextMessage("+49 1234", null, 


— 


message, null, null); ", 
据 泄 露 的 目的 。 
3.2 性 能 比较 


DroidBench 1.2 的 实验 结果 如 表 2 所 示 。 从 结果 可 以 看 出 ， 


未 经 过 混淆 的 59 个 样本 数据 集 总 共有 64 条 目标 路 径 。 实 验 对 


于 实现 信息 数据 的 发 送 ， 达 到 目标 数 


此 59 个 混淆 之 后 的 APK 文件 


条 目标 路 径 ， 识 别 率 为 95.31%， 其 中 Libraryl 


和 LogNoLeak (只 有 sink) 不 符合 本 文 的 
无 效 样本 数据 。 如 表 2 所 示 ， 漏 报 率 为 4.69%， 
本 数据 集 有 ImplicitFlow2、ImplicitFlow3 、ImplicitFlow4。 分 
析 原 因为 在 计算 路 径 权 值 时 ， 未 能 找到 对 应 变量 ， 重 复 对 首 个 
KERERE FBUKI R. KERRI 
路 径 误 报 的 样本 数据 集 


进行 路 径 检测 实验 , 可 识别 出 61 


(只 有 source) 


标 路 径 条 件 ， 看 成 


LocationLeak3 


ImplicitFlowl 。 分析 发 现 , f FH 


路 径 漏 报 的 样 


民 率 为 6.25%, 


. Button2 和 


的 污点 源 识别 库 导 致 部 分 识别 出 


来 的 起 始 基本 块 和 终结 基本 块 ， 多 于 样本 集中 标注 的 source 和 


sink， 导 致 目标 路 径 个 数 比 原 样本 


4 ”结束 语 


前 的 研究 大 多 基于 特 


征 


iu 


数据 中 的 路 


识别 的 传统 方法 ， 


二 < 


um 
x 


M 


qr, 
ARS AS NL 


e 


Seri 


(control flow graph) 的 路 径 查 找 问题 ， 从 图 论 的 有 
制 混淆 的 方法 ;第 二 , 利用 源 点 和 终 节点 集合 确定 目标 路 径 的 起 


径 更 多 。 


该 方法 已 经 无 


去 满足 现 有 反 混 淆 需求 ， 通 过 行为 特征 为 主要 的 分 析 方法 ， 识 


的 ， 论 述 对 控制 混淆 后 的 
出 混淆 问题 转变 为 控制 流 图 


的 实际 行为 ， 达 到 抵抗 混淆 技术 干扰 的 目的 。 本 文 
提出 并 实现 了 反 控 制 混 淆 系统 DOCFDroid, 检测 出 混淆 前 后 应 
功能 的 实现 路 径 。 本 文 的 主要 研究 工作 集中 在 两 点 ; 第 一 、 
依据 混淆 的 定义 趾 以 及 控制 混淆 品 
软件 路 径 检 测 的 可 行 性 ， 将 反 控 人 


始 节 点 和 终止 节点 ， 简 化 
权重 筛选 的 算法 进行 路 径 优 
路 径 的 识别 率 ， 实 验 表明 
95.31%。 对 检测 控制 混淆 后 


, 


有 效 地 提高 粗糙 路 径 的 检测 ， 使 用 
"m 去 除 宛 余 粗糙 路 径 ， 提高 标 


系统 对 目标 路 径 


的 Android 数据 集 时 ， 能 够 有 效 识 


别 出 目 标 路 径 ， 有 效 降低 误 报 与 漏 报 。 


下 一 的 研究 内 容 主 要 包括 : 


a) 完善 路 径 权 和 


度 提 出 了 反 控 


的 识别 率 达 到 


计算 算法 ， 进 


一 种 用 于 Android 应 用 的 友 控制 Wk 


^I 


I 


Hm Ti 


I 


录用 稿 FRR, F: 
一 步 降 低 由 路 径 变量 查找 失败 导致 的 漏 报 率 ; b) 筛选 或 者 构建 ”更 完善 的 source. sink 识别 库 ， 进 一 步 降 低 的 误 报 率 。 
表 2 DroidBench 1.2 数据 集 实 验 结果 
ck 原始 目标 ”混淆 后 目标 处 理 后 ”准确 识别 原始 目标 混淆 后 目标 处 理 后 ”准确 识别 
路 径 条 数 ”路 径 条 数 路 径 条 数 MERA 路 径 条 数 路 径 条 数 路 径 条 数 路径 条 数 
DirectLeak* 1 48 1 1 ObjectSensitivity2 1 231 1 1 
InactiveActivity 1 1331 1 1 Exceptions1 1 21 1 1 
Library1 0 231 0 0 Exceptions2 1 21 1 1 
Library2 1 231 1 1 Exceptions3 1 21 1 1 
LogNoLeak 0 231 0 0 Exceptions4 1 21 1 1 
Obfuscation 1 1 231 1 1 Loop1 1 252 1 1 
PrivateDataLeak1 1 2783 1 1 Loop2 1 234 1 1 
SourceCodeSpecifi 
PrivateDataLeak2 1 231 1 1 231 1 1 
cl 
PrivateDataLeak3 2 231 2 2 StaticInitializationl 1 231 1 1 
ArrayAccess1 1 231 1 1 UnreachableCode 1 231 1 1 
ArrayAccess2 1 231 1 1 ImplicitFlow1 1 231 2 1 
HashMapAccess1 1 231 1 1 ImplicitFlow2 2 231 1 1 
ListAccess1 1 231 1 1 ImplicitFlow3 2 462 1 1 
AnonymousClass1 1 231 1 1 ImplicitFlow4 2 2772 1 1 
Button1 1 231 1 1 IntentSink1 1 231 1 1 
Button2 1 231 3 1 IntentSink2 1 231 1 1 
Button3 1 231 1 1 ActivityLife1 2 231 2 2 
LocationLeak1 1 231 1 1 ActivityLife2 1 231 1 1 
LocationLeak2 1 231 1 1 ActivityLife3 1 231 1 1 
LocationLeak3 1 231 2 1 ActivityLife4 1 231 1 1 
MethodOverride1 1 231 1 1 ApplicationLife1 1 231 1 1 
MultiHandlers1 2 231 2 2 ApplicationLife2 1 231 1 1 
Ordering1 1 231 1 1 ApplicationLife3 2 231 2 2 
BroadcastLifecycle 
Unregister1 1 231 1 1 i 231 1 1 
FieldSensitivity1 1 231 1 1 SeviceLifecyclel 1 21 1 1 
FieldSensitivity2 1 231 1 1 Reflection1 1 231 1 1 
FieldSensitivity3 1 231 1 1 Reflection2 1 231 1 1 
FieldSensitivity4 1 231 1 1 Reflection3 1 231 1 1 
InheritedObjects1 1 231 1 1 Reflection4 1 231 1 1 
ObjectSensitivity1 1 231 1 1 
总 计 30 10399 33 30 34 8445 32 31 
原始 目标 路 径 总 数 : 64 处 理 后 路 径 总 数 :65 准确 识别 路 径 总 数 :61 
识别 率 95.31% 
误 报 率 6.25% 
漏 报 率 4.69% 
[2] Collberg C, Thomborson C, Low D. A taxonomy of obfuscating 
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